Convergencia en tiempo finito del Q-learning robusto distribucional Descubre cómo el Q-learning robusto con aproximación lineal converge en tiempo finito bajo incertidumbre chi-cuadrado, usando solo trayectorias markovianas. 2026-06-16 · 1 min